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4) Verfahren zum Betrieb einer Datenverarbeitungseinrichtung 

Verfahron zum Betrieb einer Datenverarbeitungseinrich- 
tung mit programmier- und konfigurierbarer Zellstrufctur, 
wobei die Datenverarbeitungseinrichtung eine Zellmatrix aus 
einer Viefeahl orthogonal zuainander angeordneter, homo- 
gen strukturierter Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladefogik frei programmierbar sind, 
enthait, dadurch gekennzeichnet, daft 

a) ein Konfigurationsprogramm, bestahend aus einer Folge 
von LadeIogik-8efehlen, die jeweils die Funktion und Vernet- 
zung der einzelnen Zellen angeben, so daS sich aus einer Tail 
folge eine spezielle Konfiguration mit spez{eller(en) Anwen- 
dung(en) ergibt, vorhanden ist, auf das die Ladelogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefOhrt wird, 

b) zunachst durch eine bestimmte Anzahl von Ladelogik-Be- 
fehlen eine Konfiguration (Fig. 20b) mit spezfeHer(en) An- 
wendung(en), mittels.der Ladelogik (30) zu Beginn ats 
Startkonfiguration in der Zell-Matrix (Fig. 2, Fig. 3) einge- 
stellt wird, 

c) durch eine Statemachine (45) oder einen Komparator (43) 
die Beendigung der Durchfuhrung einer Anwendung einer 
oder mehrerer Zellen erkannt wird, 

d) durch die Erkennung eine Ruckmeldung an die Ladelogik 
(30) erfoigt, die die Programmabarbeitung des Konfigura- 
tionsprogramms mit einer anderen Teitfolge (Rg. 21b, 
Fig. 22b) fortsetzt welche nur Zellen umkonfiguriert, also 
neu erstellt, die die Durchfuhrung ihrer Funktion fur die 
aktualle Anwendung bare its beendet haben oder nicht 
benotigt werden, so da& die Abarbeitung der Daten stroma 
der an der aktuellen Konfiguration noch beteiligten, parallel 
(2. B. Register 41, 42) oder gepipelined (z.B. Rg. 22a, 
Summiarer 141 und Muftiplizierer 149) arbeitenden Zellen, 
die sich noch in der Durchfuhrung ihrer Anwendung beftn- 
den, nicht gestort wird. 
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Beschreibung 

Die vorliegende Erfindung bezieht sich auf Verfahren 
zum Betrieb einer Datenverarbeitungseinrichtung, d h. 
einer Hardwareeinheit zur logischen und arithmeti- 
schen Manipulation (VerknQpfung) von in binSrer Form 
vorliegenden Daten (Informationen). 

Nach dem Stand der Technik sind gewohnliche Mi- 
kroprozessoren (z. Bw Intel 80 x 86) bereits bekannt Die- 
se sind aus fest vorgegebenen Einheiten ausgestaltet 
und verarbeiten Programme durch das Auskodieren 
von Befehlen (Microcode) und dadurch bestimmte Regi- 
stermanipulationen. 

Ebenfalls bekannt sind sogenannte FPGAs (z. B. aus 
US-Patent 4,870302) die zum Aufbau von komplexen 
logischen Strukturen verwendet werden. Auf der 
Grundlage dieser Bausteine lassen sich Rechenwerke 
wie Addierer, Multiplizierer, eta innerhalb des Baustei- 
nes fur die Durchnlhrung einer . bestimmten Funktion 
oder Aufgabe konfigurieren. Durch die direkte Imple- 
mentierung einer Funktion in die entsprechenden Lo- 
gikbausteine konnen FPGAs Funktionen oftmals 
schneller ausfuhren als Mikrop rozessoren. ObwohJ die 
bekannten Bausteine auf grand ihrer SRAM-Architek- 
tur bereits umkonfiguriert werden konnen, existiert kein 
Mechanismus, um die Umkonfiguration schnell und dy- 
namisch wahrend der Laufzeit durchfOhren zu konnen, 
insbesondere, wenn nur Teiibereiche des Bausteines mit 
einer neuen Funktion konfiguriert werden sollen, wah- 
rend andere Teile des Bausteines ihre Aufgabe fortset- 
zen. Durch die fehlende Interaktion zwischen einer kon- 
figurierenden Einheit und dem FPGA an sich, scheiden 
die Bausteine als funktional vollwertiger Ersatz fur Mi- 
kroprozessoren aus. 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, ein Verfahren zum Betrieb einer 
Datenverarbeitungseinrichtung mit programmierbarer 
und konfigurierbarer Zell-Struktur — wobei eine Zelie 
als ein logisches Schaltelement ahnlich US 4370302 
(LE) oder eine besonders ausgestaltete Recheneinheit 
(ALU) deflniert ist — bereitzustellen, das eine hohere 
Paralleiitat der Verarbeitung und eine flexiblere Verar- 
beitung von Daten gewahrleistet 

Dabei wird beschrieben, wie Bausteine, die aus einer 
Vielzahl von zwei- oder mehrdimensionalen Zellstruk- 
turen aufgebaut sind, schnell und effizient nach Ablauf 
eines Arbeitsschrittes oder Teilarbeitsschrittes, durch 
Interaktion zwischen dem Baustein und einer konfigu- 
rierenden Einheit, dynamiscb neu konfiguriert werden, 
ohne EinfluB auf noch ablauf ende Arbeitsschritte zu ha- 
ben. Die Notwendigkeit einer Umkonfiguration, bzw. 
das Ende eines Arbeitsschrittes, kann gemaB dieses Ver- 
fahrens automatisch erkannt werden. Dadurch kann auf 
Grundlage dieses Verfahrens ein vollwertiger Ersatz fQr 
Mikroprozessoren geschaffen werden. 

Ein Vorteil der vorliegenden Erfindung liegt darin, 
daB die beschriebene Methode eine Qber einen weiten 
Raum skalierbare Paralleiitat ermdglicht Hierbei wird 
eine Basis zum schnellen und flexiblen Aufbau von zum 
Beispiel neuronalen Strukturen geschaffen, wie sie bis 
dato lediglich mit erheblichem Aufwand durch Software 
simuliert werden konnen. 

Diese Aufgabe wird durch die im Patentanspruch I 
angegebenen Merkmale beziehungsweise Verfahren- 
schritte gelost Zur Verdeutlichung der Verfahrens- 
schritte wird beispielsweise ein integrierter Schaltkreis 
(Chip) mit einer Vielzahl insbesondere orthogonal zu- 
einander angeordneter Zellen mit je einer Mehrzahl je- 
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weils logisch gleicher und strukturell identisch angeord- 
neter Zellen gezeigt, sowie dessen interne Busstruktur, 
die zur Erleichterung der Prograrnmierung auBerst ho- 
mogen ist Grundsatzhch ist es denkbar innerhalb eines 
5 DatenfluBprozessors Zellen mit verschiedenen Zellogi- 
ken und Zellstrukturen unterzubringen, um so die Lei- 
stungsfahigkeit zu erhohen, indem zum Beispiel fur 
Speicheransteuerungen (Businterf ace) andere Zellen als 
fur arithmetische Operationen (Arithmetisch/logische 
to Einheiten (ALUs) existieren. Insbesondere kann fur neu- 
ronale Netze eine gewisse Spezialisierung von Vorteil 
sein. Den Zellen ist eine Ladelogik zugeordnet, fiber die 
die Zellen je fur sich und gegebenenfalls gruppenweise 
in sogenannte MACROs (Menge von Zellen, welche zu- 
15 sammen eine definierte Aufgabe 16sen) zusammenge- 
faBt so programmierbar sind, daB einerseits beliebige 
logische Funktionen, andererseits aber auch die Ver- 
knQpfung der Zellen untereinander in weiten Bereichen 
verifizierbar sind Dies wird erreicht indem jeder einzel- 
20 nen Zelle ein gewisser Speicherplatz zur Verfugung 
stent, in dem die Konfigurationsdaten abgelegt sind An- 
hand dieser Daten werden Multiplexer oder Transisto- 
ren in der Zeile beschaltet um die jeweiiige Zellfunktion 
zu gewahrleisten (siehe Fig. 12). 
25 Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, eine Methode fur einen DatenfluBprozessor vor- 
zuschlagen, der zellular aufgebaut ist und dessen Zellen 
fiber eine Ladelogik im arithmetisch-logischen Sinne 
30 quasi beliebig neu konfiguriert werden konnen. Dabei 
ist es von SuBerster Notwendigkeit, daB die betreffen- 
den Zellen einzeln und ohne Beeinflussung der ubrigen 
Zellen oder gar einer Stillegung des gesamten Bausteins 
umkonfiguriert werden konnen. Ein DatenfluBprozes- 
35 sor gemaB dem vorliegenden Verfahren kann so wah- 
rend eines ersten ArbeitszykJusses als Addierer und 
wahrend eines spateren ArbeitszykJusses als Multipli- 
zierer "programmiertVgenutzt werden, wobei die An- 
zahl der fur die Addition beziehungsweise die Multipli- 
40 kation erforderlichen Zellen durchaus unterschiedHch 
sein konnen. Dabei bleibt die Plazierung der bereits 
geladenen und wahrend des Umladeprozesses nicht tan- 
gierten MACROs erhalten; der Ladelogik beziehungs- 
weise dem Compiler obiiegt es, das neu zu ladende MA- 
45 CRO innerhalb der freien Zellen zu partitionieren (d h. 
das zu ladende MACRO so zu zerlegen, daB es sich 
optimal einfugen IaBt). Die Ablaufsteuerung des Pro- 
gramms wird dabei von der Ladelogik ubernommen, 
indem sie gemaB dem momentan ausgeffihrten Pro- 
50 grammabschnitt die entsprechenden MACROs in den 
Baustein ladt, wobei der Ladevorgang von der spater 
beschriebenen Synchronisauonslogik mitgesteuert 
wird, indem sie den Zeitpunkt des Umladens festlegt 
Daher entspricht ein DFP gemaB dem beschriebenem 
55 Verfahren nicht der bekannten von- Neumann- Archi- 
tektur, da die Daten- und Programmspeicher getrennt 
sind Dies bedeutet jedoch gleichzeitig eine hdhere Si- 
cherheit, da fehlerhafte Programme keinen CODE, son- 
dern lediglich DATEN zerstoren konnen. 
60 Um dem DatenfluBprozessor eine arbeitsf&hige 
Struktur zu geben, werden einige Zellen, und zwar unter 
anderem die Eingabe-/Ausgabefunktionen (I/O) und 
Speichermanagementfunktionen (I/O) vor dem Laden 
der Programme geladen und bleiben fur gewohnlich 
65 wahrend der gesamten Laufzeit konstant. 

Dies ist erforderhch um den DatenfluBprozessor an 
seine Hardwareumgebung anzupassen. Die ubrigen Zel- 
len werden zu sogenannten MACROs zusammengefaBt 
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und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinflussung von Nachbarzeilen oder anderen 
MACROS umkonfiguriert werdea Dazu sind die Zellen 
einzein und direkt adressierbar. 

Um die Umstrukturierung (das Umladen/Umkonfigu- 
rieren) der Zeflen oder MACROs mit der Ladelogik zu 
synchronisierea kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer aJten 
Tatigkeit fertig sind — eine Synchronisationsschaltung 
als MACRO auf dem DatenfluBprozessor unterge- 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet Hierzu kann eventueD eine Modifi- 
kation der gewahnlichen MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verf ugung stellen mOssea 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewdhnlich, daB einzelne MA- 
CROS ihre Aufgabe erledigt habea was aus program- 
miertechnischer Sicbt zum Beispiei die Tenninierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kana DJa das Pro- 
gramm wird an einer anderen Stelle fortgesetzt und die 
die Zustandsinformation absendenden MACROs kon- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs m einer bestimmten Reihenfolge 
umgeJaden werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinformationen durch eine Logik (zum 
Beispiei einen (Prioritats- Arbiter) erfoigen. Eine derarti- 
ge - einfache — . Logik ist in Fig. 19 gezeichnet Die 
Logik besitzt sieben Eingangssignale durch die die sie- 
ben MACROs ihre Zustandsinformation abgebea In 
diesem Fall soil 0 f Or In Arbeit" und 1 fur "fertig" stehea 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik gefuhrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 
gange an, so findet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiei Sync6 als 1 10 dargesteUt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedient, seine Aufgabe beendet hat Liegen gleichzeitig 
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mit zwei Kaskadierungsmethoden denkbar: 

a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
Beispiei zwei IO-Pins pro Kantenzelle und vier IO- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefQhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
gen ist (Globale Verbindungen zwischen mehreren 
Zellen, fur gewdhnlich zwischen einer kompletten 
Zellenreihe oder -spalte — siehe Fig. 1 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 6a zeigt den moglichen Aufbau innerhalb eines 
DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 
b) Die lokalen und globaien Verbindungen werden 
herausgefuhrt, was die Anzahl der benotigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 
serem Beispiei (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwolf IO-Pins pro Eckzelle. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 



25 Da die globaien Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globaien Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 
30 genutzt werden kann. Um diesen Effekt zu imnimieren, 
kann nach einer gewissen Lange der globaien Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
35 Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechea Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werdea 



mehrere Zustandsinformationen am Eingang an, so gibt 40 sofern der Treiber in Tristate ist, ansonsten wird ein 

die Synchronisationsschaltung das Signal mit der hoch- Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 

sten Prioritat an die Ladelogik weiter; liegen zum Bei* ber der einzelnen globaien Leitungen auch einzein an- 

spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- gesteuert werden konnen, d. a ein globales Signal kann 

nistaions-Schaltung zunachst Sync6 an die Ladelogik unterbrochen sein, das Nachbarsignal ist jedoch durch- 

weiter. Nachdem die entsprechenden MACROs umge- 45 geschleift Somit konnen auf einer globaien Verbindung 

laden sind und somit Sync6 nicht mehr anliegt wird durchaus abschnittweise verschiedene Signale anliegen, 

Syno4 weitergeleitet usw. Zur Verdeutlichung dieses wahrend die globaie Nachbarverbindung tatsachlich 

Prinzips kann zum Beispiei der Standard-TTL- Baustein global von ein und demselben Signal verwendet wird 

74148 in Betracht gezogen werdea (vergleiche Fig. 18). 

Ober die Ladelogik kann der DatenfluBprozessor je- 50 



weils optimal und gegebenenfalls dynamisch auf eine zu 
losende Aufgabe eingestellt werdea Damit ist zum Bei- 
spiei der grofie Vorteil verbunden, daB neue Normen 
oder dergleichen einzig und allein durch Umladen des 



Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
Shared-Memories eingesetzt werdea So k6nnen zum 
Beispiei Programme von einer Festplatte, die im IO-Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 



DatenfluBprozessors umgesetzt werden kdnnen und 55 durchgereicht werdea indem die DatenfluBprozessoren 

nicht — wie bisher — einen Austausch mit entsprechen- die Daten von der Platte in den Shared-Memory schrei- 

dem Anf all von Elektronikschrott bedingea ben und die Ladelogik sie dort abholt Dies ist besonders 

Die DatenfluBprozessoren sind untereinander kaska- wichtig, da hier, wie bereits erwahnt keine von-Neu- 

dierbar, was zu einer beinahe beliebigen Erhohung des mann- sondern eine Harvardarchitektur vorliegt Eben- 

ParaUelisierungsgrades, der Rechenleistung, sowie der eo so sind die Shared-Memories von Vorteil, wenn Kon- 



NetzgrdBe in neuronalen Netzen fuhrt Besonders wich- 
tig ist hier eine Ware homogene Verbindung der Zellen 
mit den EinVAusgangs-Pins (IO-Pins) der DatenfluB- 
prozessoren, um mdgiichst keine Einschrankungen auf 
die Programme zu habea 

In Fig. 4 ist zum Beispiei die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). PrinzipieU sind da- 



65 



stantea die im Programm — das im Speicherbereich der 
Ladelogik lie^t — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verknilpft werden sollea 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
sprfldie. 

Eine besondere Verwendung eines DatenfluBprozes- 
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sors gemafi dera beschriebenem Verfahrens ist darin zu 
sehen, daB er in Verbindung mit geeigneten Ein-/Ausga- 
be-Einheiten einerseits und einem Speicher andererseits 
die Basis fur einen kompletten (komplexen) Rechner 
bilden kann. Dabei kann ein GroBteil der IO-Funktio- 5 
nen als MACROs auf dem DatenfluBprozessor imple- 
mentiert werden und es brauchen momentan lediglich 
Spczialbausteine (Ethernet-Treiber, VRAMS. . .) extern 
zugefflgt zu werden. Bei einer Normanderung oder Ver- 
besserung muB dann wie bereits angedeutet nur das 10 
MACRO softwareseitig angepaBt werden; ein Eingriff 
in die Hardware ist nicht notwendig. Es bietet sich bier 
an, einen IO-(Eingabe-/Ausgabe-) Stecker festzulegen, 
fiber welchen dann die Zusatzbausteine angeschlossen 
werden konnen. 15 

Fig. 16 zeigt den stark vereinfachten Aufbau eines 
heute ublichen Rechners. Durch den Einsatz eines DFP- 
Bausteins k6nnen erhebliche Teile eingespart werden 
(Fig- 17), wobei die entsprechenden herkdmmlichen 
Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 20 
tur- und Videointerface, sowie der parailelen und seriel- 
len Schnittstellen) als MACROs in die kaskadierten 
DFPs abgeiegt werden. Nur die durch einen DFP nieht 
nachbildbaren Teile wie Speicher und Leitungstreiber 
mit nicht TTL-Pegeln oder fur hohe Lasten mussen ex- 25 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gunstige Produktion gegeben, da ein und 
derselbe Baustein sehr haufig verwendet wird, das Lay- 
out der Platine ist durch die homogene Vernetzung ent- 
sprechend einfach. Zudem wird der Aufbau des Rech- 30 
ners durch die Ladelogik bestimmt, die hier fur gewohn- 
lich nur zu Beginn der Verarbeitung (nach einem Reset) 
das DFP-Array ladt, wodurch eine gunstige Fehlerkor- 
rektur- und Erweiterungsmoglichkeit gegeben ist Ein 
derartiger Rechner kann insbesondere mehrere ver- 35 
schiedene Rechnerstrukturen simulieren, indem einfach 
der Aufbau des zu simulierenden Rechners in das DFP- 
Array geladen wird. Zu bemerken ist, daB hierbei der 
DFP nicht in seiner Funktion als DFP arbeitet sondern 
lediglich ein hochkomplexes und frei programmierbares 40 
Zellarray zur Verfugung stellt, sich hierbei jedoch von 
herkdmmlichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet. 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist 
der Aufbau groBer neuronaler Netze. Sein besonderer 45 
Vorzug liegt hierbei in seiner hohen Gatterdichte, seiner 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- 
genitat Ein Lernvorgang, der eine Anderung einzelner 
axiomatischer Verbindungen beziehungsweise einzel- 
ner Zellfunktionen beinhaltet ist auf ublichen Baustei- 50 
nen ebenso schlecht durchffihrbar, wie der Aufbau gro- 
Ber homogener und gleichzeitig flexibler Zellstrukturen. 
Die dynamische Umkonfigurierbarkeit ermdglicht erst- 
maiig die optimale Simulation von Lernvorgangea 

Die vorliegende Erfindung wird im folgenden anhand 55 
der weiteren Figuren naher erlautert Insgesamt zeigen 

Fig. 1 ein aus vier Zelien bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- 
derlichen Leitungsanschlussen; 60 

Fig. 2 einen Teilausschnitt eines integrierten Schalt- 
kreises (Chip) mit einer Vielzahl von Zellen und einem 
separierten SUBMACRO X gemaB Fig. 1 ; 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 65 
Zellen und einer extern zugeordneten Ladelogik; 

Fig. 4 die Kaskadierung von vier DFPs, wobei die 
Verbindung zwischen den IO-Pins nur schematisch dar- 
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gestellt sind (tatsachlich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Fig. 5 die durch die Kaskadierung erreichte Homoge- 
nitat; 

Fig. 6a die Struktur der E/A-Zellen, wobei die globa- 
len Verbindungen nicht herausgefuhrt werden, 

Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 
ausgefuhrten globalen Verbindungen; 

Fig. 7a die aus Fig. 6a resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mh ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

Fig. 7b die aus Fig. 6b resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

Fig. 8 einen bei spiel haf ten Aufbau einer Zelle mit 
Multiplexern zur Auswahl der jeweiligen logischen Bau- 
steine; 

Fig. 9 ein Schaltsymbol fQr einen 8-Bit-Addierer; 

Fig. 10 ein Schaltsymbol fur einen aus acht 1-Bit-Ad- 
dierern bestehenden 8-Bit- Addierer nach Fig. 9; 

Fig. 11 eine logische Struktur eines 1-Bit- Addierers 
entsprechend Fig. 10; 

Fig. 12 eine ZeDenstruktur des 1 -Bit- Addierers ent- 
sprechend Fig. 11; 

Fig. 13 einen der Zellenstruktur nach Fig. 9 entspre- 
chend aufgebauten 8-Bit- Addierer; 

Fig. 14 ein erstes Ausfuhrungsbeispiei einer Mehrzahl 
miteinander zu einem Rechenwerk gekoppelter inte- 
grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3; 

Fig. 15 ein zweites Ausfuhrungsbeispiei einer Mehr- 
zahl miteinander zu einem Rechenwerk gekoppelter in- 
tegrierter Schaltkreise (DatenfluBprozessor) nach 
Fig. 3; 

Fig. 16 den stark schematisierten Aufbau eines her- 
kdmmlichen Rechners; 

Fig. 17 den moglichen Aufbau desseiben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 

Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
tungs-) Treibern eines DFPs. 

Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefuhrte Synchronisationslogik; 

Fig. 20a, b, c ein AusfQhrungsbeispiel eines MACRO 
zur Addition zweier Zahlenreihen; 

Fig. 21a eine Multiplikationsschaltung (vergleiche 
Fig.20); 

Fig. 21b die interne Struktur des DFPs nach dem La- 
den (vergleiche Fig. 20b); 

Fig. 21c die Arbeitsweise des DFPs im Speicher, so- 
wie die Zustande der Zahler 47, 49; 

Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
dierer aus Fig. 20 und der Multiplizierer aus Fig. 21 zur 
Steigerang der Rechenleistung hintereinander geschal- 
tetsind; 

In Rg. 9 ist ein Schaltsymbol eines 8-Bit-Addierers dar- 
gesteilt Das Schaltsymbol besteht aus einem quadrati- 
schen Baustein 1 mit acht Eingangen A 0... 7 fur ein 
erstes Datenwort A und acht Eingangen B 0. . .7 fur ein 
zweites (zu addierendes) Datenwort B. Die jeweils acht 
Eingange Ai, Bi (i » 0. . .7) werden erganzt durch einen 
weiteren Eingang Oein uber den dem Baustein 1 gege- 
benenfalls ein Obertrag zugeleitet wird Der Baustein 1 
hat funktions- und bestimmungsgemaB acht Ausgange S 
0. . 7 fur binaren Summanden und einen weiteren Aus- 
gang Oaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 



DE 44 16 881 C2 

7 8 

als Anordnung sogenannter SUBMACROS dargestellt risch separiert, das letztlich als aus vier einem 1-Bit-Ad- 

Diesc SUBMACROS 2 bestehen je aus einem 1 -Bit- Ad- dierer entsprechend programmierten Zellen (10 gemaB 

dierer 3 mit je einem Eingang fur die entsprechenden Fig. 12) bestehende Untereinheitzu betrachtenist 

Bits des Datenworts und einem weiteren Eingang fur em Das in Fig. 13 separierte SUBMACRO "XT ist in 

Obertragsbit Die 1-Bh-Addierer 3 weisen daruberhin- 5 Fig. 1 als Teil eines integrierten Schaltkreises (Chip) 20 

aus einen Ausgang fur den Summanden und einen Aus- gemeinsam mit Leitungs- und Datenanschlussen darge- 

gang fur den Obertrag Oaus auf. stellt Das SUBMACRO "X" besteht aus den vier Zellen 

In Fig. 11 ist die binare Logik eines 1-Bit-Addierers 10 die entsprechend der orthogonalen Struktur je Seite 

beziehungsweise eines SUBMACROS 3 nach Fig. 10 vier Datenanschlusse (also insgesamt sechzehn Daten- 

dargestellt Analog zu Fig. 10 weist diese Schaltlogik je 10 anschhlsse je Zelle) aufweisen. Die DatenanschlQsse 

einen Eingang Ai, Bi fur die konjugierten Bits der zu verbinden jeweils benachbarteZefleit so daB ersichtEch 

verknQpfenden Daten auf; ferner ist ein Eingang Oein wird, wie beispielsweise eine Dateneinheit von Zelle zu 

fur den Obertrag vorgesehen. Diese Bits werden den Zelle durchgeschleust wird Die Ansteuerung der Zellen 

dargestellten Verbindungen beziehungsweise Verknup- 10 erfolgt einerseits uber sogenannte lokale Steuerun- 
fungen entsprechend in zwei ODER-Gliedern 5 und drei 15 gen, das sind lokale Leitungen, die mit alien Zellen ver- 

NAND-Gliedern 6 verknupft, so daB am Ausgangsan- bunden sind, und andererseits uber sogenannte globale 

schluB Si und am Ausgang fur den Obertrag Oaus die Leitungen, d h. Leitungen, die uber den gesamten inte- 

einem Volladdierer entsprechenden Verknfipfungser- griertenSchaItkreis(Cmp)20gefuhrtsind 

gebnisse(Si,Oaus)anstehen. In Fig. 2 ist ein vergroBerter Ausschnitt eines inte- 
AufderGnmdlagelogischundstnikturellidentischer 20 grierten Schaltkreises 20 dargestellt, der mit einem or- 

Zellen 10, deren einzelne logische Bausteine der auszu- thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 2 

fuhrenden Verknupfungsfunktion entsprechend ver- angedeutet kann so zum Beispiel eine Gruppe von vier 

schaltet werden, wird der 8-bit Addierer 2 in geeigneter Zellen 10 als SUBMACRO "X* ausgewahlt und dem 

Weise in die Zellstruktur implementiert Der Vorgang 1 -Bit- Addierer entsprechend Fig. 12 gemaB program- 
geschieht mittels der noch zu beschreibenden Ladelo- 25 miert beziehungsweise konfiguriert werden. 

gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik Ein vollstandiger integrierter Schaltkreis gemaB dem 

nach Fig. 11 abgeleiteten Verknupfungslogik fur einen beschriebenen Verfahren (DFP) 20 ist beispielsweise in 

1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 bezuglich Kg. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 

der logischen Bausteine insoweit gleicb, daB jeweils ein steht aus einer Vielzahl im orthogonalen Raster ange- 
ODER-Glied 5 und ein NAND-Glied 6 aktiviert sind 30 ordneter Zellen 10 und weist an seinen AuBenkanten 

Eine dritte Zelle 103 wird nur als Leitungszelle (Leiter- eine entsprechende Anzahl von LeitungsanschlQssen 

bahnzelle) benutzt und die vierte Zelle 10,4 ist bezuglich (Pins) auf, uber die Signale, insbesondere Ansteuersi- 

des dritten NAND-Gliedes 6 aktiv geschaltet Das aus gnale und Daten zugefuhrt und weitergeleitet werden 

den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 konnen. In Fig. 3 ist wiederum das SUBMACRO X 
steht somitsteUvertretend fur einen 1-Bit-Addierer, dh. 35 gemaB Fig. 13/Fig. 1 abgegrenzt; daruberhinaus sind 

ein 1-Bit-Addierer einer Datenverarbeitungseinrich- auch weitere SUBMACROS separiert die spezifiscben 

tung nach Art der vorliegenden ErTmdung kann uber Funktionen und Vernetzungen entsprechend zu Unte- 

vier entsprechend programmierte (konfigurierte) Zellen reinheiten zusammengefaBt sind Dem integrierten 

10.1. ... 10.4 verifiziert werden. (Der Vollstandigkeit Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
halber soil angemerkt werden, daB die einzelnen Zellen 40 beziehungsweise ubergeordnet uber die der integrierte 

ein erhebiich umfangreicheres Netzwerk von logischen Schaltkreis 20 programmiert und konfiguriert wird Die 

Bausteinen, sprich VerknOpfungsgliedern, und Invertern Ladelogik 30 teilt letztlich dem integrierten Schaltkreis 

aufweist, die jeweils dem aktuellen Befehl der Ladelogik 20 mit wie er arithmetisch-logisch zu arbeiten hat 

zufolge aktiv geschaltet werden konnen. Neben den lo- Anhand von Fig. 14 beziehungsweise Fig. 15 soli im 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 45 folgenden eine Rechnerstruktur beschrieben werden, 

bindungsleitungen zwischen den jeweils benachbarten die auf den im vorstehenden definierten und erlauterten 

Bausteinen und zum Aufbau von zeilen- und spaltenwei- integrierten Schaltkreis 20 aufbaut 

sen Busstrukturen zur Datenubertragung andererseits GemaB dem in Fig. 14 dargestellten ersten Ausfuh- 

vorgesehen, so daB Uber eine entsprechende Program- rungsbeispiel ist — analog zur Anordnung der Zellen — 
mierung seitens der Ladelogik quasi beliebige logische 50 im Orthogonalraster eine Mehrzahl von integrierten 

VerknQpfungsstrukturen implementiert werden kon- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 

nen X uber lokale BUS-Leitungen 21 miteinander gekoppelt 

Der Vollstandigkeit halber ist in Fig. 13 der Zellen- beziehungsweise vernetzt sind Die — beispielsweise 

aufbau eines B-Bit-Addierers in seiner Gesamtheit dar- aus sechzehn integrierten Schaltkreisen 20 bestehende 
gestellt Die in Fig. 13 gezeigte Struktur entspricht inso- 55 - Rechnerstruktur weist EinVAusgangsleitungen IO 

weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als auf, fiber die der Rechner quasi mit der AuBenwelt in 

SUBMACROS 3 dargestellten 1-Bit-Addierer jeweils Verbindung steht d h. korrespondiert Der Rechner ge- 

durch eine vier-zellige Einheit 10.1 — 10.4 ersetzt sind maB Fig. 14 weist ferner einen Speicher 22 auf, der dem 

Bezogen auf einen DatenfluBprozessor gemaB des be- dargestellten Ausfuhrungsbeispiel entsprechend aus 
schriebenen Verfahrens bedeutet dies, daB zweiunddrei- 60 zwei separierten Speichern, zusammengesetzt aus je- 

Big Zellen der zur Verfugung stehenden Gesamtheit weils RAM, ROM sowie einem Dual-Ported RAM als 

von Zellen einer zellular mit logisch identischem Layout shared memory zu der Ladelogik geschaltet besteht die 

gefertigten Schaltungsplatine seitens der Ladelogik so gleichermaBen als Schreib-Lese-Speicher oder auch nur 

angesteuert und konfiguriert beziehungsweise pro- als Lese-Speicher reaUsiert sein konnen. Der soweit be- 

giammiert werden, daB diese zweiunddreiBig Zellen ein 65 schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 

8-Bit- Addierer bilden. beziehungsweise ubergeordnet mittels der die inte- 

In der Darstellung nach Fig. 13 ist uber eine strich- grierten Schaltkreise (DatenfluBprozessor) 20 program- 

punktierte Umrahmung ein SUBMACRO "X" zeichne- miert und konfiguriert und vernetzt werden. 
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Die Ladelogik 30 baut beispielsweise auf einem 
Transputer 31, d h. einem Prozessor mit mikrocodier- 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 
zugeordnet ist Die Verbindung zwischen dem Transpu- 
ter 31 und dem DatenfluBprozessor basiert auf einer 
Schnittstelle 33 fur die sogenannten Ladedaten, d. h. die 
Daten die den Datenfluflprozessor aufgabenspezmsch 
programmieren und konfigurieren und einer Schnitt- 
stelle 34 fur den bereits genannten Reehnerspeicher 22, 
d. h. den Shared-Memory-Speicher. 

Die in Fig. 14 dargestellte Struktur stelh so einen 
kompletten Rechner dar, der fiber die Ladelogik 30 je- 
wels fall- beziehungsweise aufgabenspezifisch pro- 
grammiert und konfiguriert werden kann. Der Vollstan- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 
dung mit der Ladelogik 30 fiber Pfeile angedeutet — 
mehrere dieser Rechner vernetzt, d h. miteinander ge- 
koppelt werden konnen. 

Ein weiteres Ausffihrungsbeispiel einer Rechner- 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen 
zwischen den benachbarten integrierten Schaltkreisen 
20 noch iibergeordnete zentrale BUS-Leitungen 23 vor- 
gesehen, urn zum Beispiel spezifische Ein- beziehungs- 
weise Ausgangsprobleme losen zu konnen. Auch der 
Speicher 22 (Shared-Memory) ist uber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- 
bunden, und zwar wie dargestellt jeweils mit Gruppen 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 
stellte Rechnerstruktur weist die gleiche Ladelogik 30 
auf, wie sie anhand von Fig. 14 erlautert wurde. 

In Verbindung mit Fig. 20a soil eine aus erfindungsge- 
maBen DatenfluBprozessoren aufgebaute Additions- 
schaltung erlautert werden. Ausgegangen wird von zwei 
Zahlenreihen A n und B n fur samtiiche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe Q = Aj + Bi 
zu bilden, wobei der Index i die Werte 0 <= n < 9 
annehmen kann. 

Bezugnehmend auf die Darstellung nach Fig. 20a ist 
die Zahlenreihe A n in einem ersten Speicher RAMI 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse 1000 h; die Zahlenreihe B n ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe C n wird in den RAMI eingeschrieben und 
zwar unter der Adresse lOOah. 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung freigegebe- 
nen Taktzyklen hochzahlt Dies soli im Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROs ohne Beeinflussung der an der Umkonfigurie- 
rung nicht beteiligten MACROs dienen. 

Fig. 20a zeigt zunachst die eigerttliche Additions- 
schaltung 40, die aus einem ersten Register 41 zur Auf- 
nahme der Zahlenreihe A n und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe B n besteht Den bei- 
den Registern 41/42 ist ein 8-Bit- Addierer entsprechend 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet 
Der Ausgang des MACRO 1 ffihrt Uber eine Treiber- 
schaltung 43 zurflck zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Additionsschaltung 
40 erfolgt fiber eine von einem Taktgenerator T ange- 
steuerte Zustandsmaschine (STATEMACHINE) 45, die 
mit den Registern 41, 42 und der Treiberschaltung 43 
verbunden ist 

Die Additionsschaltung 40 wird funktional durch eine 
AdreBschaltung 46 zur Generierung der AdreBdaten fur 
die abzuspeicbemden Additionsergebnisse erganzt Die 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs 



1 (gemaB Fig. 9) zur Bildung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
einen Eingang werden die zu verknfipfenden Adressen 
fur An, Bn, Cn zugefuhrt Diese Adressen werden mit den 
5 Ausgangssignalen eines Zahlers 47 addiert und mit der 
Statemachine 45 so verkmlpft, daB am Ausgang die neue 
Zieladresse ansteht Der Zahler 47 und der Komparator 
48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
die richtigen Summanden verknupft werden und daB 
io jeweils am Ende der Zahlenreihen, d. h. bei n =» 9 abge- 
brochen wird. Ist die Addition vollendet, so wird in der 
Zustandsmaschine 45 ein STOP-Signal generiert und die 
Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
gnal als Eingangssignal fur eine Synchronisations-Schal- 
is tung verwenden werden, indem die Synchronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren* gemaB dem nachfolgend be- 
schriebenen ML1 Programm beendet ist und die MA- 
CROS somit durch Neue ersetzt werden kdnnen (zum 
20 Beispiel konnte STOP das Signal Sync5seinX 

Der Zeitablauf in der 45 (STATEMACHINE) l&Bt 
sich dabei wie folgt darstellen, wobei noch anzumerken 
ist, daB in der Zustandsmaschine 45 eine Verzogerungs- 
zeit T (in Form von Taktzyklen) zwischen der AdreBge- 
25 nerierung und dem Datenerhalt implementiert ist: 



— Im Zyklus 1 wird jeweils der Zahler 47 urn 1 
erhoht und im Komparator 48 wird gepruft, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 
den die Adressen fur A, B, C berechnet; 

— im Zyklus (T + 1) werden die Summanden A, B 
ausgelesen und addiert; 

— im Zyklus (T + 2) wird die Summe C abgespei- 
chert 



30 



35 



45 



50 



Mit anderen Worten heiBt dies, daB die Operations- 
schleife und die eigentliche Addition gerade (T + 2) 
Taktzyklen erfordert Im allgemeinen sind far T 2..3 
Takte erforderlich, so daB verglichen mit den herkdmm- 
40 lichen Prozessoren (CPU), die im allgemeinen 50 bis 
mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 
che Rechenzeit-Reduzierung moghch wird. 

Die anhand von Fig. 20 aufgezeigte Konfiguration 
soil im folgenden fiber eine hypothetische MACRO- 
Sprache ML1 nochmals erlautert werden: 
Es existieren die Zahlenreihen An und Bn 

n:0 n < = 9 
Es sollen die Summen Q = Ai + Bi mit i € N gebildet 
werden. 
const n = 9; 

array A[n] in RAM[1 at 1000 h; 
array B[n] in RAM[2] at OdfaOh; 
array C(n] in RAM[1] at lOOah; 
fori « 0 ton with (ApJBpiqiD 
55 Al; 

C - Al = A + B; 
next; 

RAM[1] ist der 1. Speicherblock 
RAM[2] ist der Z Speicherblock 
60 at folgt die Basisadresse der Arrays 
for ist der Schleif enbeginn 
next ist das Schleifenende 

with ( ) folgen die Variablen, deren Adressen durch die 
Zahlvariable i bestimmt werden 
65 T folgt die Verzdgerungszeit fiir eine Statemachine in 
Taktzyklen 

Das Tuning der Zustandsmaschine (Statemachine) sieht 
demnach folgendermaBen aus: 
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ZyklusAktivitat 

1 Zahler erhohen, Vergleich auf > 9 (ja => Abbruch) 
und 

Adressen fur A, B, Q berechnen 
T + 1 A, B, holen und addieren 
T + 2 Nach C speichern 

Das heiBt — wie bereits erwahnt — die Schieife und die 
Addition bendtigen gerade einmal T + 2 Taktzyklen. 

Fig. 20b zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem erfindungsgemaBen 
DFP. Die MACROs sind in ihrer etwaigen Lage und 
GrdBe eingezeichnet und mit den anhand von Fig. 20a 
eriauterten entsprechenden Nummern versehen. 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-Blocke 1 und 2: Die Summanden 
werden nacheinander in aufsteigender Reihenfolge aus 
den RAM-Blocken 1 und 2 ab Adresse 1000 h bezie- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 
Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soil 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet Die Umladung soil zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen A n und Bn, wobei A 0 
durch das Ergebnis C n des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

n:0 n < = 9 
Es sollen die Produkte Q = A\ x Bi mit i e N gebildet 
werden. 
const n = 9 

array A[n] in RAM[1 atlOOah 
array B[n] in RAM[2] at OdfaOh 
array Qn] in RAM[l]at 1015 h 
fori « 0tonwith(A[iJB(T|,C[i]) 
Al; 

C- Al = AxB; 
next 

Die Beschreibung der einzelnen Befehle ist bereits 
bekannt, x symbolisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 21a beschrieben, 
Fig. 21b gibt in bekannter Weise die Lage und GrdBe 
der einzelnen MACROs auf dem Chip an, besonders zu 
beachten ist die GrdBe des Multiplizierers 2 in Vergleich 
zu Addierer 1 aus Fig. 20b. In Fig. 21c ist erneut die 
Auswirkung der Funktion.auf den Speicher aufgezeigt, 
Zahler 47 zahlt erneut von 0 bis 9, d. h. er wird beim 
Nachladen der MACROs zuriickgesetzt 

Besonders zu beachten ist der Shier 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, d. h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
ftlhrt nun dazu, daB der Zahler wahrend des Programm- 
abiaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wurde der Zahler er- 
neut von 0 auf 9 lauf en, da er zuriickgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die 
Frage, wamm nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefuhrt 
werden, also die Operation: 

Es existieren die Zahlenreihen A n und B«, wobei A n 
durch das Ergebnis von C n des vorher ausgefuhrten 
Programms gegeben ist: 

n;0«n< =9 
Es sollen die Produkte Q = (Ai+Bi)xB, mit i e N 
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gebildet werden. 
pathD; 
const n » 9; 

array A[n] in RAM[1] at 1000 h 
5 array B[n] in RAM[2] at OdfaOh 
array Qn] in RAM[1] at lOOah 
for i « 0 to n with ( A[iJ BQJ CJT|) 
Al; 

D = Al = A + B; 
10 C = Al = DxB; 
next; 

path D deflniert einen internen nicht aus den DFP 
herausgefQhrten Doppelpfad. Die Operation bendtigt 
wegen einem zusatzuchen Al einen Taktzyklus mehr als 
is vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefuhrt, da zum einen 
die Schieife nur einmai durchlaufen wird, zum zweiten 
nicht umgeladen wird. 
Prinzipiell konnte das Programm audi so formuliert 
20 werden: 
const n= 9; 

array Afn] m RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array CJ>] in RAM[1] at lOOah 
25 fori = 0 ton with (Apl BpJ C[iD 
Al; 

C- A2=(A + B)xB; 
next; 

Sind die Gatteriaufzeiten des Addierers und des Mul- 
30 tiplizierers zusammen kleiner als ein Taktzyklus, kann 
die Operation (A + B)xB auch in einem Taktzyklus 
durchgefuhrt werden, was zu einer weiteren erhebli- 
chen Geschwindigkeitssteigerung fuhrt: 
const n == 9; 
35 array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
f or i = 0 to n with (A[iJ BfiJ C[i]) 
Al; 

40 C = Al =(A+B)xB; 
next; 

Anhand von Fig. 8 soli ein einfaches Beispiei eines 
Zellenaufbaus erlautert werden. Die Zelle 10 umfaBt 
zum Beispiei ein UND-Glied 51, ein ODER-Glied 52, ein 
45 XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zelle 55. Die Zelle 10 weist darQberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der Zelle entsprechend Fig. 1) zum Beispiei je sechzehn 
Eingangsanschlussen INI, IN2 auf. Ober diesen 
so (16 : 1)-Multiplexer 56/57 werden jeweils die den ge- 
nannten logischen Gliedern UND, ODER, XOR 51. . 53 
zuzuf uhrenden Daten ausgewahlt Diese logischen Glie- 
der sind ausgangsseitig mit einem (3 : 1)-Multip!exer 58 
gekoppelt, der seinerseits mit dem Eingang des Inver- 
55 ters 54, einem Eingang der Regis terzelle 55 und einem 
weiteren (3 : 16)- Multiplexer 59 gekoppelt ist Der letzt- 
genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 
des Inverters 54 und einem Ausgang der Registerzelle 
55 verbunden und gibt das Ausgangssignal OUT ab. 
60 Der Voilstandigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist 

Dem im vorstehenden eriauterten Zellenaufbau, d. h. 
der Zelle 10 ist nun eine Ladeiogik 30 ubergeordnet, die 
65 mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewunschten Funktionen entsprechend an- 
steuert 

Sollen zum Beispiei die Signale A2 rait B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise "FONP entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 5t und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 5 
Soil zum Beispiel eine NAND-Verknupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT stent dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung mit programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zellmatrix aus einer Vielzahl 
orthogonal zueinander angeordneter, homogen 
strukturierter Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei program- 
mierbar sind, enthalt, dadurch gekennzeichnet, 20 
daB 

a) ein Konfigurationsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zelnen Zellen angeben, so daB sich aus einer 25 
Teil folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfiguration in der Zell-Matrix (Fig. 2, Fig. 3) 35 
eingesteilt wird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
fuhrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Erkennung eine Rfickmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 45 
so neu erstellt, die die Durchfuhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht bendtigt werden, so 
daB die Abarbeitung der Datenstrome der an 
der aktuellen Konfiguration noch beteiligten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 
(z. B. Fig. 22a, Summierer 141 und Multipiizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der Durchffihrung ihrer Anwendung befinden, 
nicht gestdrt wird. 55 

2. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z. B. Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, eo 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge uber eine Rflckmeldung 
an die Ladelogik sicherstellt wird. 

3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der AnsprQche I oder 65 
2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, betiebig vielen unabhangig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 
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RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanai (Fig. 14, Fig. 15; IO) ausgegeben 
wird 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltern (Fig. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan- 
gige Abschnitte aufgeteilt werden konnen. 
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